在本文中,我们研究了半发布反馈下的随机组合多武装强盗问题。虽然在算法上完成了很多工作,但优化线性的预期奖励以及一些一般奖励功能,我们研究了一个问题的变种,其中目标是风险感知。更具体地说,我们考虑最大化条件价值(CVAR)的问题,这是一个仅考虑最坏情况奖励的风险措施。我们提出了新的算法,最大化了从组合匪盗的超级臂上获得的奖励的CVAR,用于两个高斯和有界手臂奖励的两种情况。我们进一步分析了这些算法并提供了遗憾的界限。我们认为,我们的结果在风险感知案例中提供了对组合半强盗问题的第一个理论见解。
translated by 谷歌翻译
使用强化学习解决复杂的问题必须将问题分解为可管理的任务,无论是明确或隐式的任务,并学习解决这些任务的政策。反过来,这些政策必须由采取高级决策的总体政策来控制。这需要培训算法在学习这些政策时考虑这种等级决策结构。但是,实践中的培训可能会导致泛化不良,要么在很少的时间步骤执行动作,要么将其全部转变为单个政策。在我们的工作中,我们介绍了一种替代方法来依次学习此类技能,而无需使用总体层次的政策。我们在环境的背景下提出了这种方法,在这种环境的背景下,学习代理目标的主要组成部分是尽可能长时间延长情节。我们将我们提出的方法称为顺序选择评论家。我们在我们开发的灵活的模拟3D导航环境中演示了我们在导航和基于目标任务的方法的实用性。我们还表明,我们的方法优于先前的方法,例如在我们的环境中,柔软的演员和软选择评论家,以及健身房自动驾驶汽车模拟器和Atari River RAID RAID环境。
translated by 谷歌翻译